通信搜索是刚性点云注册算法中的重要步骤。大多数方法在每个步骤都保持单个对应关系,并逐渐删除错误的通信。但是,建立一对一的对应关系非常困难,尤其是当将两个点云与许多本地功能匹配时。本文提出了一种优化方法,该方法在将部分点云与完整点云匹配时保留每个关键点的所有可能对应关系。然后,通过考虑匹配成本,这些不确定的对应关系通过估计的刚性转换逐渐更新。此外,我们提出了一个新的点功能描述符,该描述符衡量本地点云区域之间的相似性。广泛的实验表明,即使在同一类别中与不同对象匹配时,我们的方法也优于最先进的方法(SOTA)方法。值得注意的是,我们的方法在将真实世界的噪声深度图像注册为模板形状时的表现优于SOTA方法。
translated by 谷歌翻译
Video summarization attracts attention for efficient video representation, retrieval, and browsing to ease volume and traffic surge problems. Although video summarization mostly uses the visual channel for compaction, the benefits of audio-visual modeling appeared in recent literature. The information coming from the audio channel can be a result of audio-visual correlation in the video content. In this study, we propose a new audio-visual video summarization framework integrating four ways of audio-visual information fusion with GRU-based and attention-based networks. Furthermore, we investigate a new explainability methodology using audio-visual canonical correlation analysis (CCA) to better understand and explain the role of audio in the video summarization task. Experimental evaluations on the TVSum dataset attain F1 score and Kendall-tau score improvements for the audio-visual video summarization. Furthermore, splitting video content on TVSum and COGNIMUSE datasets based on audio-visual CCA as positively and negatively correlated videos yields a strong performance improvement over the positively correlated videos for audio-only and audio-visual video summarization.
translated by 谷歌翻译
While the Turkish language is listed among low-resource languages, literature on Turkish automatic speech recognition (ASR) is relatively old. In this report, we present our findings on Turkish ASR with speech representation learning using HUBERT. We investigate pre-training HUBERT for Turkish with large-scale data curated from online resources. We pre-train our model using 6,500 hours of speech data from YouTube. The results show that the models are not ready for commercial use since they are not robust against disturbances that typically occur in real-world settings such as variations in accents, slang, background noise and interference. We analyze typical errors and the limitations of the models for use in commercial settings.
translated by 谷歌翻译
Timely and effective response to humanitarian crises requires quick and accurate analysis of large amounts of text data - a process that can highly benefit from expert-assisted NLP systems trained on validated and annotated data in the humanitarian response domain. To enable creation of such NLP systems, we introduce and release HumSet, a novel and rich multilingual dataset of humanitarian response documents annotated by experts in the humanitarian response community. The dataset provides documents in three languages (English, French, Spanish) and covers a variety of humanitarian crises from 2018 to 2021 across the globe. For each document, HUMSET provides selected snippets (entries) as well as assigned classes to each entry annotated using common humanitarian information analysis frameworks. HUMSET also provides novel and challenging entry extraction and multi-label entry classification tasks. In this paper, we take a first step towards approaching these tasks and conduct a set of experiments on Pre-trained Language Models (PLM) to establish strong baselines for future research in this domain. The dataset is available at https://blog.thedeep.io/humset/.
translated by 谷歌翻译
视频框架插值(VFI)是一项基本视觉任务,旨在综合两个连续的原始视频图像之间的几个帧。大多数算法旨在通过仅使用密钥帧来完成VFI,这是一个错误的问题,因为密钥帧通常不会对场景中对象的轨迹产生任何准确的精度。另一方面,基于事件的摄像机在视频的关键帧之间提供了更精确的信息。一些最新的基于事件的最新方法通过利用事件数据来更好地解决此问题,以更好地进行光流估计来通过翘曲插值视频框架。尽管如此,这些方法严重遭受了重影效果。另一方面,仅使用框架作为输入的一些基于内核的VFI方法表明,在用变压器备份时,可变形的卷积可能是处理长期依赖关系的可靠方法。我们提出了基于事件的视频框架插值,并作为一种基于轻质核的方法(E-VFIA)。 E-VFIA通过可变形的卷积将事件信息与标准视频帧融合在一起,以生成高质量的插值框架。所提出的方法表示具有高时间分辨率的事件,并使用多头发项机制来更好地编码基于事件的信息,同时不太容易受到模糊和鬼影的影响;因此,产生更脆的框架。仿真结果表明,该提出的技术优于当前最新方法(基于框架和事件),其模型大小明显较小。
translated by 谷歌翻译
在本文中,我们将概述SV形式共享任务,作为第三届学术文档处理(SDP)的一部分,在Coling 2022.中,在共同的任务中,为参与者提供了变量和变量的词汇,被要求确定全文学术文档中的单个句子中提到了哪些变量。两支球队总共向共享任务排行榜提交了9项意见。尽管所有团队都没有改进基线系统,但我们仍然从他们的意见书中获取见解。此外,我们提供了详细的评估。我们共享任务的数据和基线可在https://github.com/vadis-project/sv-inend上免费获得
translated by 谷歌翻译
设计在边缘硬件上运行的深神经网络(DNN)仍然是一个挑战。社区已经采用了标准设计来促进神经网络模型的部署。但是,并不是很强调适应网络拓扑以适合硬件约束。在本文中,我们适应了移动硬件平台MobilenetV2的最广泛使用的架构之一,并研究了更改其拓扑结构并应用后培训后量化的影响。我们讨论了改编和模型在嵌入式硬件平台上进行面部检测的影响。
translated by 谷歌翻译
控制器区域网络(CAN)协议的入侵检测需要现代方法才能与其他电气体系结构竞争。指纹入侵检测系统(IDS)提供了一种有希望解决此问题的新方法。通过表征来自已知ECU的网络流量,可以区分危险信息。在本文中,通过神经网络培训对网络流量的步骤响应和光谱表征,使用了修改版的指纹ID版本。通过添加功能集减少和超参数调整,此方法可实现99.4%的可信ECU流量检测率。
translated by 谷歌翻译
随着无线标准的发展,引入了更复杂的功能,以解决吞吐量,延迟,安全性和效率方面的增加。为了释放此类新功能的潜力,目前正在利用人工智能(AI)和机器学习(ML)(ML)来从数据中得出模型和协议,而不是通过手工编程。在本文中,我们探讨了将ML应用于下一代无线局域网(WLAN)的可行性。更具体地说,我们专注于IEEE 802.11AX空间重用(SR)问题,并通过联合学习(FL)模型来预测其性能。在这项工作中概述的FL解决方案集是2021年国际电信联盟(ITU)AI的5G挑战赛的一部分。
translated by 谷歌翻译
犯罪预测问题的现有方法在表达细节时不成功,因为它们将概率值分配给大区域。本文介绍了一种具有图形卷积网络(GCN)和多变量高斯分布的新架构,以执行适用于任何时空数据的高分辨率预测。通过利用GCN的灵活结构并提供细分算法,我们以高分辨率在高分辨率下解决稀疏问题。我们用图形卷积门控经常性单位(Graph-concgru)构建我们的模型,以学习空间,时间和分类关系。在图形的每个节点中,我们学习来自GCN的提取特征的多变量概率分布。我们对现实生活和合成数据集进行实验,我们的模型获得了最佳验证和基线模型中的最佳测试分数,具有显着改进。我们表明我们的模型不仅是生成的,而且是精确的。
translated by 谷歌翻译